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摘要 :【 目的 】 本 研究 旨 在 探讨 深度 学 习 模 型 在 蝴蝶 科 级 标 术 图像 自动 识别 中 的 可 行 性 和 泛 化 能 
力 。【 方 法】 为 了 提高 识别 模型 的 重 棒 性 和 泛 化 能 力 ,将 锤 角 亚 目 中 6 个 科 1 117 种 蝴蝶 标本 图 像 
通过 水 平 翻转 、 增 加 图 像 对 比 度 与 亮度 以 及 添加 噪声 的 方式 增强 图 像 数据 集 。 在 Caffe 框架 下 , 利 
用 迁移 学 习 方 法 ,首先 使 用 ImageNet 数据 集中 的 图 像 训 练 CaffeNet 模型 ,迭代 31 万 次 后 得 到 初始 
化 的 网 络 权 值 ;然后 利用 蝴蝶 图 像 训 练 已 预 训练 好 的 CaffeNet 模型 ,通过 参数 微调 ,获得 一 个 蝴蝶 
科 级 标本 图 像 自动 识别 的 卷 积 神经 网 络 模型 。 为 了 比较 深度 学 习 和 传统 模式 识别 两 种 方法 建立 的 
模型 的 泛 化 能 力 , 对 相同 训练 样本 提取 全 局 特征 和 局 部 特征 ,训练 支持 向 量 机 (support vector 
machine，SVM ) 分 类 器 。 所 有 的 模型 在 与 训练 样本 图 像 来 源 一 致 和 不 一 致 的 两 个 测试 样本 集 上 进 
行 测试 。【 结果 】 当 测试 样本 与 训练 样本 来 源 一 致 , 均 为 蝴蝶 标本 图 像 时 ,基于 CaffeNet 的 蝴蝶 识 
别 模型 对 6 个 科 的 蝴蝶 识别 准确 率 平 均 达到 95.8% ,基于 Gabor 的 SVM 分 类 器 也 获得 了 94.8% 的 
识别 率 。 当 测试 样本 与 训练 样本 来 源 不 一 致 ,为 自然 环境 下 拍摄 的 蝴蝶 图 像 时 ,两 种 方法 获得 的 识 
别 率 均 下 降 ,但 CaffeNet 模型 对 蝴蝶 自然 图 像 的 平均 识别 率 仍 能 达到 65.6% ,而 基于 Cabor 的 SVM 
分 类 器 的 识别 率 仅 为 38.9% 。【 结 论 ] 利用 CaffeNet 模型 进行 蝴蝶 科 级 标本 图 像 识 别 是 可 行 的 , 相 
比较 传统 模式 识别 方法 ,基于 深度 学 习 的 蝴蝶 识别 模型 具有 更 好 的 泛 化 能 
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Automatic identification of butterfly specimen images at the family level 
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Abstract: [Aim) This study aims to explore the feasibility and generalization ability of deep learning 
model applied to the automatic identification of butterfly images at the family level. 【 Methods 】To 
improve the robustness and generalization performance of model, the data augmentation with images of 
1 117 butterfly species of six families were performed to increase the number of images by 全 pping image 
horizontally, increasing image contrast and brightness, and adding noises for training. In Caffe 
framework, an ImageNet-trained convolution neural network model was obtained by 310 000 iterations. 
The training set of butterfly images was used to train a new CaffeNet model to automatically identify 
butterflies at the family level by the transfer learning method. To compare generalization ability of the 


CaffeNet model based on deep learning with the models based on traditional pattern recognition methods, 
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global and local features were extracted from the same training samples, and the support vector machine 


(SVM ) classifier was trained. All models were used to detect the two different test sample sets. 


【 Results】When the test samples，same as the training samples, were from specimen images, the 


CaffeNet model had a mean accuracy rate of 95. 8% ，while the SVM classifier based on Gabor features 


had a mean accuracy rate of 94. 8% in six butterfly families. When the test samples were from natural 


images of butterflies the accuracy rates of the CaffeNet and SVM models were decreased. However, the 


accuracy rate of CaffeNet model still achieved 65. 6% and the SVM classifier based on Gabor features 


only got the 38. 9% accuracy rate. 【 Conclusion 】The butterfly identification model based on deep 


learning has a high identification rate at the family level, with higher robustness and generalization ability 


than those traditional pattern recognition models based on global and local features by manual extraction 


and selection. 


Key words: Butterfly; specimen images; automatic identification; deep learning; CaffeNet model; 


feature extraction; support vector machine 


蝴蝶 属于 昆虫 纲 鳞 翅 目 锤 角 亚 目 , 种 类 繁多 。 
《世界 蝴蝶 分 类 名 录 》 记 录 了 世界 蝴蝶 17 科 47 亚 
科 1690 属 15 141 种 ,其 中 记录 了 中 国 蝴蝶 12 科 33 
FF 科 434 属 2 153 种 ( 寿 建新 等 , 2006 ) 。 蝴 蝶 一 般 
色彩 艳丽 ,飞行 姿态 优雅 ,具有 极 高 的 观赏 价值 。 蝴 
蝶 可 以 为 植物 传播 花粉 ,使 植物 顺利 繁殖 后 代 ; 也 有 
部 分 种 类 的 蝴蝶 幼虫 是 农林 的 害虫 。 因 此 , 蝴蝶 种 
类 的 识别 与 鉴定 是 生物 多 样 性 保护 与 利用 、 科 普 教 
育 \ 农 林 害 虫 防治 等 工作 中 的 一 项 重要 任务 。 

传统 的 蝴蝶 种 类 识别 主要 依靠 检索 表 所 描述 的 
形态 学 分 类 信息 ,与 标本 的 特征 一 一 对 比 ,最 终 得 到 
识别 结果 ( 周 尧 ,1998 ) 。 这 种 方法 需要 检索 者 拥有 
专业 的 昆虫 分 类 学 技能 。 实 际 上 , 拥有 昆虫 分 类 专 
业 知 识 的 人 极 少 ,难以 满足 人 们 对 蝴蝶 种 类 识别 的 
需求 。 随 着 图 像 处 理 和 机 融 学 习 等 相关 理论 的 发 展 
与 广泛 的 应 用 ,许多 学 者 投入 到 基于 图 像 特 征 的 蝴 
蝶 识 别 算法 的 研究 中 。 
用 于 蝴蝶 识别 的 图 像 特征 主要 包括 颜色 、 纹 理 
和 形态 的 全 局 特征 和 局 部 特征 。 张 建 伟 (2006 ) 利 
用 蝴蝶 前 后 翅 26 个 形态 特征 以 及 正面 颜色 特征 对 
43 种 蝴蝶 标本 进行 识别 ,获得 较 高 的 识别 率 。 刘 芳 
(2007) 利用 蝴蝶 正 ` 反面 的 颜色 特征 建立 了 基于 径 
向 基 的 神经 网 络 模 型 ,获得 了 较 高 的 识别 率 。Kaya 
和 Tekin(2013) 和 Kaya 和 Kayci(2014a, 2014b) 先 
吾 尝 斌 利用 Gabor 特征 、 颜 色 和 纹理 特征 与 极限 学 
习 机 、 人 工 神经 网 络 和 Logistic 回归 方程 相 结 合 , 来 
探讨 蝴蝶 自动 识别 方法 。 李 凡 (2015 ) 利用 颜色 、 形 
态 和 纹理 特征 研究 了 50 种 蝴蝶 的 自动 识别 方法 。 
Wang 等 (2012 ) 利用 颜色 、 纹 理 和 形态 特征 建立 了 
蝴蝶 图 像 检 索 方 法 识别 科 级 水 平 上 的 蝴蝶 。Kang 
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等 (2014) 利 用 形状 特征 训练 人 工 神 经 网 络 分 类 器 
来 识别 蝴蝶 。 潘 脑 亮 等 (2008a, 2008b) 和 陈 渊 等 
(2011) 提 取 7 种 蝴蝶 前 翅 的 内 部 翅 脉 交点 坐标 ,对 
这 些 特征 进行 聚 类 识别 蝴蝶 种 类 , 这 些 交 叉 点 坐标 
位 置 可 归属 于 形态 特征 。 

上 述 基 于 图 像 特征 的 蝴蝶 自动 识别 方法 均 采 用 
了 传统 的 模式 识别 方法 , 即 图 像 预 处 理 、 特 征 提取 和 
筛选 .分 类 器 的 训练 和 测试 等 几 个 步骤 ,针对 有 限 种 
类 和 有 限 样本 量 的 蝴蝶 识别 一 般 能 获得 较 高 的 识别 
率 。 但 在 大 自然 中 ,蝴蝶 种 类 繁多 ,生境 多 变 , 同 一 
种 蝴蝶 因为 不 同性 别 、 不 同 季节 和 不 同 地 理 区 域 可 
能 存在 较 大 的 差异 ,不 同 种 的 蝴蝶 在 颜色 斑纹 和 形 
态 上 可 能 存在 一 定 的 相似 性 ,加 上 蝴蝶 样本 图 像 采 
集 困难 ,这 种 以 手工 设计 的 特征 训练 得 到 的 分 类 器 
存在 鲁 棒 性 不 高 和 泛 化 能 力 差 等 问题 。 

近 几 年 , 随 着 人 工 智 能 的 发 展 ,深度 学 习 在 语音 
识别 .自然 语言 处 理 以 及 图 像 与 视频 分 析 等 诸多 领 
域 获得 了 巨大 的 成 功 (Li and Karpathy, 2015 ) 。 目 
前 ,深度 学 习 是 一 种 从 端 到 端 机 器 学 习 系 统 ,深度 学 
习 方 法 中 的 卷 积 神经 网 络 (convolutional neural 
network ，CNN ) 模型 ( Krizhevsky et al.，2012; 
Simonyan and Zisserman，2015 ) 在 大 规模 图 像 识 别 
任务 中 表现 出 色 , 与 传统 模式 识别 方法 最 大 不 同 在 
于 它 从 图 像 中 能 自动 逐 层 提取 特征 ,可 以 包含 成 干 
上 万 的 参数 ,这 些 良 好 的 特征 表达 在 深度 学 习 中 起 
到 至 关 重 要 的 作用 (Bengio et al., 2013)。 已 有 学 者 
利用 CNN 来 研究 昆虫 种 类 的 识别 ,并 取得 较 好 的 结 
果 (Liu et al., 2016)。 

本 研究 在 Caffe( Jia et al., 2014) 框架 下 ,在 应 用 
较 广 泛 的 CaffeNet 模型 基础 上 ,利用 迁移 学 习 方法 ， 
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对 其 网 络 结构 进行 微调 ,通过 训练 网 络 权 值 参数 获 
得 一 个 科 级 水 平 上 的 蝴蝶 自动 识别 模型 ;为 了 比较 
深度 学 习 和 传统 模式 识别 两 种 模型 的 鲁 棒 性 和 汉化 
能 力 ,我 们 提取 蝴蝶 的 全 局 特征 和 局 部 特征 ,分 别 训 
练 获得 不 同 的 支持 向 量 机 (support vector machine， 
SVM) 分 类 器 ;在 与 训练 样本 图 像 来 源 一 致 和 不 一 臻 
的 两 个 相同 测试 集 上 进行 测试 ,比较 这 两 种 方法 的 
识别 结果 与 分 类 器 模型 的 泛 化 能 


1 图 像 数 据 与 方法 


1.1 蝴蝶 图 像 数据 集 

蝴蝶 图 像 一 部 分 来 自 4 中 国 蝶 类 志 》( 周 芜 ， 
1994 ) 的 扫描 图 像 ,为 展开 的 标本 图 像 ,包括 蝴蝶 标 
本 的 正面 或 反面 图 像 。 本 研究 选择 了 蝴蝶 数量 较 多 
的 6 个 科 1 117 种 蝴蝶 共 4 464 幅 图 像 作为 训练 和 
测试 样本 集 , 其 中 粉 蝶 科 ( Pieridae ) 104 种 459 幅 ， 
凤 蝶 科 ( Papilionidae ) 94 种 391 幅 , 灰 蝶 科 
(Lycaenidae)235 种 920 幅 , 峡 蝶 科 ( Nymphalidae) 














288 种 1 281 幅 , 弄 蝶 科 (Hesperiidae)187 种 628 幅 ， 
眼 蝶 科 (Satyridae )209 种 785 幅 。 图 像 背景 区 域 统 
一 设置 为 白色 (图 1)。 

在 蝴蝶 图 像 数据 中 每 个 科 各 随机 选取 100 幅 图 
像 作为 测试 集 。 将 剩余 的 3 864 幅 作为 训练 集 。 由 
于 深度 神经 网 络 模 型 的 训练 需要 大 量 的 图 像 来 提取 
有 效 的 特征 ,同时 为 了 避免 模型 过 拟 合 ,对 训练 集 进 
行 了 数据 增强 (Jia et al., 2014) , 即 采用 水 平 翻转 、 
增加 图 像 对 比 度 .亮度 和 添加 噪声 的 方式 对 训练 集 
进行 扩展 ,得 到 的 图 像 (图 2), 其 中 弄 蝶 科 2 112 
幅 , 灰 蝶 科 2 460 幅 , 峡 蝶 科 2 362 幅 , 凤 蝶 科 2 328 
幅 , 粉 蝶 科 2 872 幅 , 眼 蝶 科 2 740 幅 , 共 计 14 874 
幅 。 

男 一 部 分 蝴蝶 图 像 来 自 网 络 , 均 在 自然 环境 下 
拍摄 的 ,每 科 30 幅 ,6 科 共 180 幅 自 然 图 像 ( 图 3)。 
这 些 蝴 蝶 自 然 图 像 与 训练 样本 的 标本 图 像 来 源 不 一 
样 ,将 其 作为 测试 集 主要 是 为 了 检测 基于 蝴蝶 标本 
图 像 训 练 获得 的 传统 模式 识别 和 深度 学 习 这 两 种 方 
法 建立 的 模型 的 泛 化 能 力 的 差异 。 
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图 1 来 自 6 个 科 的 6 种 蝴蝶 标本 图 像 
Fig. 1 Specimen images of six species of butterflies from six families 
A: 粉 蝶 科 Pieridae; B: 凤 蝶 科 Papilionidae; C: 灰 蝶 科 Lycaenidae; D: 峡 蝶 科 Nymphalidae; 上 上: 弄 蝶 科 Hesperiidae; 了 下 : 眼 蝶 科 Satyridae. 








图 2 蝴蝶 标本 图 像 4 种 数据 增强 方式 
Fig. 2 Four data augmentation methods of butterfly specimen images 
A: 蝴蝶 原 图 Original image; B: 水 平 翻 转 Flipping image horizontally; C: 增加 对 比 度 与 亮度 Increasing contrast and brightness; D: 添加 噪声 
Adding noise. 
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1.2 深度 学 习 模 型 的 建立 与 训练 

1.2.1 CaffeNet 蝴蝶 识别 模型 的 建立 : Caffe 是 由 
伯克利 视觉 和 学 习 中 心 开 发 的 基于 C + +/CUDA/ 
Python 实现 的 卷 积 神经 网 络 框 架 ,提供 了 面向 命令 
行 、Matlab 和 Python 的 绑 定 接口 (http: // caffe. 
berkeleyvision. org/ gathered/ examples/ imagenet. html ) 。 
由 于 Caffe 框架 利用 了 MKL，OpenBLAS ，cuBLAS 
等 计算 库 , 支 持 CPU 加 速 , 不 仪 运行 速度 快 ,而 且 适 
合 做 二 维 图 像 数据 的 特征 提取 。 本 研究 在 该 中 心 建 
立 的 CaffNet 模型 基础 上 ,利用 迁移 学 习 方法 进行 参 
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图 4 用 于 蝴蝶 识别 的 CaffeNet 模型 网 络 结构 
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图 3 在 自然 环境 下 拍摄 的 蝴蝶 图 像 


Fig. 3 Butterfly images in natural environments 





数 微调 ,建立 CaffeNet 蝴蝶 识别 模型 。 

CaffeNet 蝴蝶 识别 模型 网 络 结构 如 图 4 所 示 ， 
由 8 层 网 络 结构 组 成 ,包括 5 个 卷 积 层 和 3 个 全 连 
接 层 。 前 两 个 卷 积 层 包 含 卷 积 ( convolution ) 激活 
(activation ) 、 池 化 (pooling) 和 局 部 响应 归 一 化 (local 
response normalization ) 操作 ,第 3、4 个 卷 积 层 只 包含 
卷 积 和 激活 操作 ,最 后 一 个 卷 积 层 包含 卷 积 .激活 和 
池 化 操作 。 第 67 全 连接 层 包含 激活 和 dropout 操 
作 , 第 8 全 连接 层 的 输出 是 6 类 的 Softmax 层 。 
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Fig. 4 Network architecture of CaffeNet model for butterfly identification 


CaffeNet 模型 参数 ;crop_size = 227, 池 化 层 
kernel_size = 3，stride =2 ,激励 国 数 采用 Rectified 
Linear Units (ReLU) ，drop 层 dropout_ratio =0.5, 卷 
积 核 初始 化 函数 选用 gaussian。 卷 积 层 1num_output 
=96 ，kernel _size = 11 ，stride = 4, 卷 积 层 2num _ 
output =256, pad =2, kernel_size =5 ，group =2 , 卷 
积 层 3num_output =384, pad =1，kernel_size =3 , 卷 
积 层 4num_output = 384 ,pad = 1 ,kernel_size =3 , 卷 
积 层 Snum_output = 256 ,pad = 1 ,kernel_size =3 ,其 
余 为 全 连接 层 。 输 出 为 6 类 。 








1.2.2 CaffeNet 蝴蝶 识别 模型 的 训练 : 首先 , 对 
CaffeNet 模型 权 值 参数 进行 初始 化 。 为 了 避免 数据 
过 拟 合 和 获得 较 高 鲁 棒 性 的 模型 , 蝴蝶 的 CaffeNet 
识别 模型 是 利用 迁移 学 习 方 法 ,首先 获得 对 图 像 分 
类 识别 较 好 的 模型 进行 参数 微调 的 方法 ,利用 训练 
样本 图 像 来 获得 蝴蝶 识别 模型 。 

ImageNet 数据 集 (Li and Karpathy，2015 ) 是 全 
球 最 大 的 图 像 识别 数据 库 , 目前 有 1 400 多 万 张 图 
像 , 由 斯 坦 福 大 学 视觉 实验 室 李 飞 飞 教授 领衔 组 建 
的 。 利 用 ImageNet 数据 集中 的 图 像 训练 迭代 31 万 
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次 后 得 到 的 CaffeNet 权 值 文 件 初 始 化 CaffeNet 网 络 
权 值 。 

然后 ,将 CaffeNet 模型 训练 超 参数 设 定 为 :初始 
学 习 速 率 为 0. 001 ,学 习 速 率 的 衰减 策略 为 step， 
gamma 为 0. 1 , 步 长 为 3 000 , 冲 量 为 0.9 ,权重 衰减 
量 为 0. 0005 , 友 代 次 数 为 10 000 次 。 训 练 输入 图 像 
大 小 为 227 x227 像素 ,输出 为 6 类 , 即 弄 蝶 科 、 灰 蝶 
科 、 峡 蝶 科 、 凤 蝶 科 、 粉 蝶 科 和 了 眼 蝶 科 。 

最 后 ,使 用 初始 化 的 参数 对 训练 图 像 进行 前 向 
传播 操作 ,计算 误差 ,再 使 用 梯度 下 降 算 法 和 反 向 传 
播 算法 调整 权 值 参 数 , 通 过 不 断 的 迭代 使 损失 函数 
收敛 到 最 小 值 ,将 此 时 训练 出 的 权 值 参数 作为 蝴蝶 
6 个 科 分 类 模型 的 最 终 权 值 参 数 。 

本 研究 模型 的 建立 和 测试 是 在 装 有 Caffe 框架 
的 台式 机 上 进行 的 ,CPU 为 Intel Core i5-6500@3. 20 
GHz, GPU 为 NVIDIA GeForce GTX 750 Ti, 主 机 内 
存 为 8.00 GB。 

1.3 基于 图 像 特征 的 支持 向 量 机 (SVM ) 分 类 器 的 
建立 与 训练 

为 了 比较 传统 模式 识别 与 深度 学 习 两 种 方法 
建立 的 识别 模型 对 蝴蝶 图 像 识 别 效 果 和 泛 化 能 
力 ,通过 提取 不 同 的 图 像 特征 分 别 训 练 不 同 的 
SVM 分 类 器 。 

1.3.1 全 局 特征 的 提取 : 提取 蝴蝶 图 像 的 全 局 特 
征 ,包括 颜色 特征 、 纹 理 特 征 和 形态 特征 。 
根据 洗 易 翔 等 (2015 ) , 提取 蝴蝶 图 像 颜 色 特 
征 ,首先 在 R, G, B 三 个 分 量 进行 非 均 匀 量 化 ;然后 
计算 R 分 量 颜 色 均 值 . 能 量 和 峰 度 等 3 个 特征 ,分 
别 计算 G 和 B 分 量 的 颜色 均值 和 能 量 共 4 个 特征 ; 
计算 L=R+G+B 分 量 的 颜色 均值 .方差 和 能 量 等 












































































































































HOC 由 Dalal 和 Triggers 于 2005 年 提出 。 首 先 
对 灰 度 图 上 每 个 像素 点 计算 横 坐 标 和 纵 坐 标的 方向 
梯度 值 ;然后 ,将 图 像 分 成 若干 个 细胞 单元 格 ,计算 
每 个 细胞 单元 格 内 的 方向 梯度 直方 图 ;将 每 几 个 细 
胞 单元 格 组 成 一 个 块 结构 , 相 邻 块 结构 中 细胞 单元 
部 分 可 以 重合 ,一 个 块 结构 内 所 有 细胞 单元 的 方向 
梯度 图 串联 起 来 形成 块 的 方向 梯度 直方 图 ;最 后 ,将 
图 像 内 所 有 块 的 方向 梯度 直方 图 串联 起 来 得 到 目标 
图 像 的 方向 梯度 直方 图 向 量 ( Dalal and Triggers， 
2005 )。HOG 特征 以 固定 大 小 的 细胞 单元 进行 操 
作 , 因 而 在 图 像 上 具有 较 好 的 几何 形状 不 变性 以 及 
光照 不 敏感 性 。 

Gabor 特征 利用 Gabor 小 波 对 图 像 进 行 加 窗 处 
理 , 可 以 描述 图 像 信 号 的 局 部 频 域 信 息 。 对 图 像 的 
边缘 敏感 ,但 对 光照 变化 具有 良好 的 适应 性 
( Arivazhagan et al., 2006)。 本 研究 利用 二 维 Gabor 
小 波 模 型 (Lee, 1996) ,提取 5 个 尺度 与 8 个 方向 共 
40 个 Gabor 滤波 器 。 

局 部 二 值 模式 (LBP) 是 0jala 等 在 1994 年 提出 
的 一 种 用 来 描述 图 像 局 部 纹理 特征 的 算 子 。LBP 值 
是 单元 格 中 每 个 像素 与 其 8 个 邻 域 的 像素 值 分 别 进 
行 比 较 , 如 果 该 邻 域 的 像素 值 大 于 中 心 像素 , 则 该 邻 
域 标记 为 1 ,否则 标记 为 0。 这 样 ,每 个 像素 点 可 产 
生 8 位 二 进 制 数 ,将 这 8 位 二 进 制 数 依 次 排列 形成 
一 个 二 进 制 数字 ,这 个 二 进 制 数字 就 是 该 中 心 像素 
的 LBP 值 COjala et al., 1996)。 
1.3.3 文 持 问 量 机 分 类 器 的 建立 与 训练 : 支持 向 
量 机 (SVM) 由 Vapnik 在 1995 年 建立 在 统计 学 习 理 
论 的 VC 维 理论 和 结构 风险 最 小 原理 基础 上 提出 的 





































































































3 个 特征 ; 共 10 个 颜色 特征 。 
根据 高 程 程 和 惠 晓 威 (2010 ) ,纹理 特征 采用 基 
于 灰 度 共生 矩阵 的 统计 法 提取 纹理 特征 。 取 4d = 1， 
90=0°, 45°%, 90°, 145°, 求 出 角 二 阶 和 矩 、 炉 对比度 
和 相关 性 等 4 个 参数 ,提取 这 些 参数 的 均值 和 方差 ， 
共 8 个 特征 值 。 
根据 吕 军 等 (2012 ) ,在 蝴蝶 二 值 图 像 基 础 上 提 
取 形 态 特 征 ,包括 矩形 度 .长 宽 比 \ 狭 长 度 、 紧 凑 度 、 
圆 度 .等 效 椭圆 长 短 轴 比 和 7 个 Hu 不 变 矩 , 共 13 
个 参数 。 
1.3.2 局 部 特征 的 提取 : 提取 蝴蝶 图 像 的 局 部 特 
征 , 包 括 方向 梯度 直方 图 (histogram of oriented 
gradients ，HOG ) 特征 、Gabor 特征 和 局 部 二 值 模式 
(local binary pattern ，LBP) 特征 。 
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种 机 器 学 习 方法 (Vapnik, 1995) 。SVM 根据 有 限 
的 样本 信息 在 模型 的 复杂 性 和 学 习 能 力 之 间 寻 求 最 
佳 折 囊 ,从 而 达到 在 统计 样本 量 较 少 的 情况 下 , 亦 能 
获得 良好 的 泛 化 能 力 (Huang，1998 ) 。 

本 研究 使 用 的 是 带 后 验 概 率 的 支持 向 量 机 (Lin 
et al., 2007) , 即 通过 Sigmoid 函数 把 SVM 的 标准 输 
出 映射 到 [0, 1] 区 间 上 的 一 个 概率 估计 值 进行 测试 
样本 的 判别 。 利 用 LIBSVM 工具 箱 ( Chang and Lin ， 
2016 ) 进行 分 类 颖 的 训练 ,以 径 问 基 函 数 (RBF) 作 
为 核 函 数 , 使 用 one-versus-one 方法 组 合 多 个 二 分 类 
器 ;利用 交叉 验证 机 制 和 POS (粒子 群 寻 优 ) 寻 优 算 
法 寻找 最 佳 的 惩罚 因子 c 和 核 函 数 中 gamma 参数 
获得 最 优 的 SVM 分 类 器 模型 。 
1.4 识别 结果 的 评价 
利用 识别 率 和 误 检 率 来 评价 不 同 的 方法 对 蝴蝶 
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图 像 的 识别 效果 ,其 中 

识别 率 = 正确 识别 出 每 科 蝴 蝶 的 图 像 数 ， 

全 每 科 蝴 蝶 图 像 的 总 数  ” 
误 判 为 每 科 蝴 蝶 的 图 像 数 

识别 为 每 科 蝴蝶 图 像 的 总 数 ” 











误 检 率 = 





2 结果 
2.1 CaffeNet 模型 识别 结果 

利用 训练 好 的 CaffeNet 模型 对 测试 集中 来 自 6 
个 科 的 600 幅 蝴蝶 标本 图 像 和 自然 环境 下 拍摄 的 
180 幅 蝴 蝶 自 然 图 像 进行 测试 ,结果 见 表 1。 从 表 1 
可 以 看 出 ,在 蝴蝶 标本 图 像 测试 结果 中 ,和 弄 蝶 科 、 灰 
蝶 科 、 峡 蝶 科 、 凤 蝶 科 和 粉 蝶 科 识 别 的 识别 准确 率 均 
在 95.0% 及 以 上 , 灰 蝶 科 更 是 达到 了 100. 0% 的 准 
确 率 。 眼 蝶 科 识别 的 准确 率 稍微 偏 低 , 为 87.0% ， 
主要 原因 是 有 些 眼 碟 与 峡 蝶 在 形态 上 比较 相似 。 由 
于 训练 图 像 均 来 自 标本 图 像 , 当 测 试图 像 与 训练 图 
像 来 源 一 致 时 , 蝴蝶 图 像 平均 识别 率 为 95. 8% , 平 
均 误 检 率 为 4.2% ,表明 CaffeNet 模型 对 蝴蝶 标本 
图 像 具 有 较 好 的 识别 效果 。 

在 蝴蝶 自然 图 像 测 试 结果 中 ,平均 识别 率 明显 
比 蝴蝶 标本 图 像 的 平均 识别 率 要 低 , 主要 是 因为 测 

















































































































试 样本 与 训练 图 像 来 源 不 一 致 ,图 像 差 异 较 大 。 但 
CaffeNet 模型 对 未 去 背景 的 蝴蝶 自然 图 像 的 平均 识 
别 率 仍旧 能 达到 65. 6% ,表明 基于 深度 学 习 的 蝴蝶 
识别 模型 具有 一 定 的 泛 化 能 力 。 由 于 CaffeNet 属于 
有 监督 学 习 的 模型 ,如果 训 练 样 本 中 包含 蝴蝶 自然 
图 像 ,获得 的 模型 对 蝴蝶 自然 图 像 的 识别 率 将 会 大 
幅 提高 ,这 一 点 是 毋庸 置疑 的 。 

表 2 给 出 了 CaffeNet 蝴蝶 识别 模型 对 蝴蝶 标本 
图 像 测 试 集 判 别 后 获得 的 混淆 和 矩阵 。 其 中 , 粉 蝶 和 
眼 蝶 均 有 4 幅 图 像 被 误 判 为 灰 蝶 科 , 有 8 幅 眼 蝶 图 
像 被 错 分 为 峡 蝶 科 。 图 5 给 出 了 部 分 误 判 的 蝴蝶 图 
像 。 从 图 5 中 可 以 看 出 , 粉 蝶 图 5(A, B) 在 颜色 上 
呈现 土 黄色 ,与 部 分 灰 蝶 相似 。5(C ) 是 一 种 没有 尾 
状 突 的 凤 蝶 ,因为 后 这 边缘 形态 呈 饮 齿 状 ,而 被 误 判 
为 峡 蝶 。 图 5(D -了 ) 均 为 眼 蝶 科 的 蝴蝶 ,具有 明显 
眼 斑 ;但 图 5(D) 因 整体 形态 和 颜色 特征 与 灰 蝶 相 
似 而 被 误 判 为 灰 蝶 ;图 5(E,『F) 因 整 体形 态 特 征 与 
峡 蝶 相 似 而 被 误 判 为 峡 蝶 。 实 际 上 ,同一 科 的 蝴蝶 
在 颜色 ,形态 和 纹理 上 差异 很 大 ,图 6 给 出 了 峡 蝶 科 
和 了 眼 蝶 科 各 4 幅 不 同 种 类 的 蝴蝶 。 不 同 科 有 些 蝴 蝶 
在 斑纹 上 可 能 存在 相似 性 ,如 图 6(A -D) 中 的 峡 蝶 
存在 类 似 眼 蝶 的 眼 状 斑 。 











































































































表 1 基于 CaffeNet 模型 的 6 个 科 的 蝴蝶 图 像 识 别 结果 


Table 1 Identification results of butterflies from six families based on CaffeNet model 














蝴蝶 标本 图 像 蝴蝶 自然 图 像 
科 名 Butterfly specimen images Butterfly natural images 
Family name 识别 率 (% ) 误 检 率 (% ) 识别 率 (% ) 误 检 率 (% ) 
Accuracy rate False detection rate Accuracy rate False detection rate 
粉 蝶 科 Pieridae 95.0 1.0 63.3 42.4 
凤 蝶 科 Papilionidae 97.0 0.0 50.0 0.0 
灰 蝶 科 Lycaenidae 100.0 10.7 90.0 44.9 
峡 蝶 科 Nymphalidae 99.0 10.8 76.7 46.5 
和 弄 蝶 科 Hesperiidae 97.0 0.0 46.7 225:2 
眼 蝶 科 Satyridae 87.0 0.0 66.7 9.1 
平均 值 Mean 95.8 4.2 65. 6 34.4 
表 2 基于 CaffeNet 模型 的 6 科 蝴 蝶 标 本 图 像 识 别 结果 的 混淆 矩阵 


Table 2 Confusion matrix of identification results from buttlefly specimen images in six butterfly families 
based on CaffeNet model 





科 名 粉 蝶 科 凤 蝶 科 灰 蝶 科 峡 蝶 科 弄 蝶 科 眼 蝶 科 

Family name Pieridae Papilionidae Lycaenidae Nymphalidae Hesperiidae Satyridae 
粉 蝶 科 Pieridae 95 0 4 1 0 0 
风 蝶 科 Papilionidae 0 97 2 1 0 0 
灰 蝶 科 Lycaenidae 0 0 100 0 0 0 
峡 蝶 科 Nymphalidae 0 0 1 99 0 0 
弄 蝶 科 Hesperiidae 0 0 1 2 97 0 
眼 蝶 科 Satyridae 1 0 4 8 0 87 
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图 5 部 分 误 判 的 蝴蝶 标本 图 像 
Fig. 5 Some misidentified butterfly specimen images 
A, B: 误 判 为 灰 碟 的 粉 蝶 Pieridae butterflies misidentified as Lycaenidae butterflies; C: 误 判 为 峡 蝶 的 凤 蝶 Papilionidae butterfly misidentified as 
Nymphalidae butterfly; D: 误 判 为 灰 碟 的 眼 蝶 Satyridae butterfly misidentified as Lycaenidae butterfly; EE, 下; 误 判 为 峡 蝶 的 眼 蝶 Satyridae butterflies 


misidentified as Nymphalidae butterflies. 








图 6 相同 科 不 同 种 类 的 蝴蝶 呈现 不 同 的 图 像 特 征 
Fig. 6 Different image features from different butterflies of the same family 
A -DD: 峡 蝶 科 4 种 蝴蝶 Four butterfly species of Nymphalidae; E 一 H: 眼 蝶 科 4 种 蝴蝶 Four butterfly species of Satyridae. 


本 研究 采用 CaffeNet 模型 训练 出 的 蝴蝶 科 级 水 
平 的 分 类 模型 能 达到 了 较 高 的 分 类 准确 率 ,表明 将 
深度 学 习 应 用 于 蝴蝶 种 类 识别 是 可 行 的 ,并 能 获得 
较 好 的 识别 效果 。 
2.2 SVM 分 类 器 识别 结果 

利用 训练 好 的 SVM 分 类 器 对 测试 集中 来 自 6 
个 科 的 600 幅 蝴蝶 标本 图 像 和 自然 环境 下 拍摄 的 
180 幅 蝴蝶 自然 图 像 进 行 测试 。 由 于 蝴蝶 自然 图 像 
有 比较 复杂 的 背景 ,影响 蝴蝶 图 像 全 局 特征 和 局 部 
特征 的 提取 ,我 们 利用 Photoshop 软件 对 蝴蝶 自然 图 
像 进行 了 背景 去 除 。 不 同 的 图 像 特 征 训练 的 SVM 
分 类 器 对 两 种 不 同 来 源 的 测试 集 测试 结果 见 表 3。 


从 表 3 可 以 看 出 , 当 测 试图 像 与 训练 图 像 来 源 
一 样 , 均 为 标本 图 像 时 ,不 同 特征 训练 的 SVM 分 类 
器 获得 的 平均 识别 率 从 大 到 小 排列 :Cabor > HOG > 
LBP > 全 局 特征 ;其 中 基于 Cabor 特征 的 SVM 分 类 
器 获得 了 94. 8% 的 高 识别 率 和 5.2% 的 低 误 检 率 ， 
与 利用 CaffeNet 模型 获得 的 结果 接近 。 利 用 全 局 特 
征 组 合 训练 获得 的 SVM 分 类 器 识别 表现 较 差 ,识别 
率 仅 为 56.8% 。 由 此 表明 ,在 蝴蝶 图 像 识 别 中 ,局 
部 特征 比 全 局 特征 对 蝴蝶 具有 更 好 的 区 分 度 。 当 测 
试图 像 为 自然 环境 下 拍摄 的 蝴蝶 图 像 ,蝴蝶 姿态 各 
异 , 与 训练 图 像 中 蝴蝶 翅 平 展 拍 摄 的 图 像 完 全 不 一 
样 ,结果 表明 基于 图 像 特征 训练 获得 的 SVM 分 类 器 
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表 3 基于 不 同 特征 训练 的 SVM 分 类 器 的 蝴蝶 图 像 识 别 结果 


Table 3 Identification results of butterflies based on SVM classification trained by different features 


























蝴蝶 标本 图 蝴蝶 自然 图 像 
特征 Butterfly specimen images Butterfly natural images 
Feature 识别 率 (% ) 误 检 率 (% ) 识别 率 (% ) 误 检 率 (% ) 
Accuracy rate False detection rate Accuracy rate False detection rate 
全 局 特征 Global feature 56.8 43.2 22.8 77.2 
HOG 特征 HOG feature 82.5 17.5 18.3 81.7 
Gabor 特征 Gabor feature 94.8 552 38.9 61.1 
LBP 特征 LBP feature 67.3 32.7 12.8 87.2 





HOG: 方向 梯度 直方 图 Histogram of oriented gradients; LBP: 局 部 二 值 模式 Local binary pattern. 





的 平均 识别 率 均 未 能 达到 40% 。 由 此 表明 ,传统 的 
模式 识别 方法 相对 于 深度 学 习 方 法 在 模型 的 泛 化 能 
力 上 ,表现 要 差 一 些 。 


3 讨论 


本 研究 在 Caffe 框架 下 , 利用 深度 学 习 中 的 
CaffeNet 网 络 模型 对 锤 角 亚 目 中 6 个 科 1 117 种 蝴 
蝶 标 本 图 像 进行 训练 ,获得 一 个 蝴蝶 标本 图 像 科 级 
水 平 自动 识别 模型 。 在 蝴蝶 标本 图 像 测试 集 上 测 
试 ,获得 了 平均 为 95.8% 的 识别 准确 率 。 为 了 比较 
深度 学 习 和 传统 模式 识别 两 种 方法 在 识别 图 像 上 的 
能 力 ,我 们 利用 对 相同 的 训练 样本 集 提 取 了 颜色 、 纹 
理 和 形态 的 全 局 特征 和 3 种 局 部 特征 ,分 别 训练 了 
SVM 分 类 器 。 在 相同 的 蝴蝶 标本 图 像 测 试 集 测试 ， 
结果 表明 ,基于 Gabor 的 SVM 分 类 器 具有 94.8% 的 


























计 更 适用 于 蝴蝶 分 类 的 特征 ,然后 综合 蝴蝶 分 类 学 
专家 的 意见 赋予 各 个 机 器 视觉 特征 不 同 的 权重 ; 测 
试 结果 表明 ,14 科 的 蝴蝶 平均 识别 率 仅 为 32% ; 影 
响 识 别 结果 最 大 的 因素 是 识别 的 种 类 数 ,特征 的 选 
择 次 之 ,最 后 是 比较 算法 。 

深度 学 习 是 通过 组 合 低层 特征 形成 更 加 抽象 的 
高 层 表示 属性 类 别 或 特征 ,以 达到 获得 最 佳 特征 的 
目的 。 本 研究 结果 表明 ,将 深度 学 习 应 用 于 蝴蝶 标 
本 图 像 科 一 级 别 的 分 类 是 可 行 的 ,但 是 仍 有 一 些 误 
差 存 在 。 经 分 析 , 有 以 下 几 种 情况 会 对 结果 产生 影 
啊 : 

(1) 训 练 样本 图 像 的 来 源 和 质量 。 本 研究 蝴蝶 
训练 样本 图 像 来 源 于 《中国 蝶 类 志 》, 为 标本 扫描 图 
像 ,有 的 是 蝴蝶 正面 图 像 , 有 的 是 反面 图 像 。 由 于 蝴 
蝶 正 反面 图 像 相 差 比较 大 ,将 影响 蝴蝶 的 正确 识别 。 
在 这 些 扫描 图 像 中 ,有 少 部 分 图 像 存 在 模糊 和 破损 































































































识别 率 , 与 CaffeNet 模型 识别 结果 相近 ; 另外 , 局 并 
特征 比 全 局 特征 在 区 分 蝴蝶 图 像 上 表现 更 好 。 为 了 
验证 不 同 模型 的 泛 化 能 力 ,我 们 对 自然 环境 下 拍摄 
的 蝴蝶 图 像 进行 测试 ,结果 表明 ,CaffeNet 模型 识别 
率 要 比 SVM 分 类 器 识别 率 要 高 出 26.7% ,表明 
CaffeNet 模型 对 与 训练 图 像 来 源 不 一 样 的 图 像 具 有 
更 好 的 泛 化 能 

利用 传统 的 模式 识别 方法 ,通过 提取 特征 和 训 
练 SVM 分 类 器 ,对 有 限 种 类 和 有 限 样本 量 的 蝴蝶 识 
别 一 般 能 获得 较 高 的 识别 率 。 实 际 上 , 自然 界 蝴蝶 
种 类 繁多 ,即使 是 相同 科 的 蝴蝶 种 类 在 形态 纹理 和 
颜色 特征 上 差异 都 很 大 ,也 有 很 多 来 自 不 同 科 的 蝴 
蝶 在 图 像 特征 上 却 有 相似 之 处 (图 5) ;因此 , 当 贿 蝶 
种 类 增加 ,而 训练 样本 数 较 少 的 情况 下 ,这 种 以 手工 
设计 的 特征 训练 得 到 的 分 类 器 存在 鲁 棒 性 不 高 和 泛 
化 能 力 差 等 问题 。Wang 等 (2012 ) 提取 传统 的 机 器 
视觉 特征 并 根据 蝴蝶 类 群 以 及 其 图 像 的 特点 手工 设 















































情况 ,特别 是 颜色 较 淡 的 蝴蝶 ,容易 引起 误 判 。 

(2) 测 试 样本 与 训练 样本 来 源 的 一 致 性 。 由 于 
CaffeNet 和 SVM 模型 都 属于 有 监督 学 习 的 模型 , 当 
测试 样本 与 训练 样本 来 源 不 一 致 时 ,两 种 模型 识别 
率 均 下 降 了 很 多 。 但 CaffeNet 模型 在 泛 化 能 力 上 表 
现 要 更 好 。 

(3) 训 练 样本 图 像 的 数量 。 一 般 情 况 下 ,训练 
图 像样 本 越 大 ,得 到 的 深度 神经 网 络 模型 识别 结果 
越 好 。 由 于 我 们 每 个 科 的 蝴蝶 样本 种 类 较 多 ,差异 
较 大 ,但 样本 数 较 少 ,本 研究 通过 水 平 翻转 、 增 加 对 
比 度 与 亮度 以 及 添加 噪点 实现 数据 增强 扩大 样本 
集 ,并 载 和 人 训练 好 的 权 值 文件 进行 微调 ,显著 改善 了 
训练 时 的 过 拟 合 , 在 测试 中 达到 了 较 高 的 准确 率 。 
随 着 更 多 样本 的 加 入 ,蝴蝶 图 像 分 类 模型 将 更 加 鲁 
棒 和 高 效 。 

(4) 相 似 的 图 像 轮廓 特征 。 在 表 2 的 混淆 矩阵 
中 ,发 现 每 一 科 都 有 蝴蝶 被 误 判 为 灰 蝶 科 。 在 科 阶 
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元 的 蝴蝶 翅 脉 框架 中 , 灰 蝶 科 具 有 尾 状 突起 ,但 在 实 
未 分 类 中 , 灰 蝶 科 后 翅 形 态 各 异 ,银灰 蝶 属 无 尾部 突 
起 ,种 及 种 下 颜色 变异 情况 较 大 ( 周 范 , 1998)。 从 
眼 灰 蝶 族 斑纹 a a 

斑纹 类 似 ; 凤 蝶 科大 部 分 种 类 具有 尾部 突起 ,这 一 点 
与 灰 蝶 科 在 科 级 检索 分 类 特征 中 相似 ， 人 
有 细微 差别 。 在 凤 蝶 科 的 错 分 样本 中 发 现 , 误 判 的 
图 像 尾部 突起 细 长 ,轮廓 与 灰 蝶 科 中 的 鹿 灰 蝶 族 相 
似 ,因此 被 误 判 为 灰 蝶 科 。 
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